查看原文
其他

速递|Grok-2来了!马斯克连发两款AI模型,开放内测

硅兔君 硅兔君
2024-10-21

作者|Xuushan,编辑|蔓蔓周



比GPT-4 Turbo更强。



8月14日消息,刚刚,马斯克旗下的xAI发布了两款AI模型Grok-2和Grok-2 mini的测试版,xAI进一步展现自己在AI领域强大的创新能力。


体验链接:https://x.com/i/grok

与Grok-1相比,Grok-2更直观、可操作且功能多样,能够执行各种类型的任务,如找答案、帮助AI写作以及编写代码等。而轻量化AI模型Grok-2 mini是参数小巧但功能强大的AI模型,是xAI在AI模型的响应速度和保证答案质量权衡后之间做出得最优解。


早些时候,Grok-2在竞争性语言模型基准LMSYS上以"sus-column-r"的名字进行了测试,并且在整体Elo得分上超越了Claude 3.5 Sonnet和GPT-4 Turbo。


可以看到在胜率方面,Grok-2远远领先于DeepSeek V2deng,与GPT-4o几乎持平。


xAI还通过AI导师系统测试Grok与新的模型互动表现,主要评估模型在两个关键领域的能力:遵循指示和提供准确真实的信息。

在每次互动过程中,Grok 都会向AI导师提供两个不同模型的响应。他们会根据指导手册里对于特定场景、特定条件的指示,选择最佳的模型响应。可以看到,Grok-2在内容检索以及工具使用方面的能力大幅提升,Grok-2也赢得了AI导师的“爆灯”支持。


此外,Grok-2 在研究生水平的科学知识(GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。

Grok-2 还在基于视觉的任务方面表现出色,在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面表现出色。


Grok-2还是X平台的AI助手,具有文本和视觉理解方面的高级能力,集成了来自X平台的实时信息,可通过X应用程序中的 Grok 选项卡访问。

此外,Grok-2在推理检索到的内容和工具使用能力方面表现出了显著的进步,例如正确识别缺失信息、通过事件序列进行推理以及隐藏无关帖子。


Grok-2和Grok-2 mini现在都已在X平台上向Grok用户发布,将于本月晚些时候开放企业API 。届时,X Premium和 Premium+用户均可在Beta测试中体验Grok-2 和 Grok-2 mini的高级功能。不仅如此,xAI正在测试Black Forest Labs的FLUX.1模型,以扩展Grok在X上的功能。

本月晚些时候,xAI还将通过新的企业API平台向开发人员发布Grok-2 和Grok-2 mini,新的API将建立在新的定制技术堆栈上,允许多区域推理部署,以实现全球低延迟访问。

xAI还将增强相关安全功能,例如强制性多因素身份验证(例如使用Yubikey、Apple TouchID 或 TOTP)、丰富的流量统计数据和高级计费分析(包括详细数据导出)。我们还提供了一个管理 API,允许您将团队、用户和计费管理集成到您现有的内部工具和服务中。

👇最新直播活动预约👇



起底马斯克对Dojo的爱:连续5年站台,押注特斯拉下一个未来

Get Rich

点赞+在看,搞钱稳赚!



继续滑动看下一个
硅兔君
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存